Diffusion-based generative models have achieved remarkable success in image generation. Their guidance formulation allows an external model to plug-and-play control the generation process for various tasks without fine-tuning the diffusion model. However, the direct use of publicly available off-the-shelf models for guidance fails due to their poor performance on noisy inputs. For that, the existing practice is to fine-tune the guidance models with labeled data corrupted with noises. In this paper, we argue that this practice has limitations in two aspects: (1) performing on inputs with extremely various noises is too hard for a single model; (2) collecting labeled datasets hinders scaling up for various tasks. To tackle the limitations, we propose a novel strategy that leverages multiple experts where each expert is specialized in a particular noise range and guides the reverse process at its corresponding timesteps. However, as it is infeasible to manage multiple networks and utilize labeled data, we present a practical guidance framework termed Practical Plug-And-Play (PPAP), which leverages parameter-efficient fine-tuning and data-free knowledge transfer. We exhaustively conduct ImageNet class conditional generation experiments to show that our method can successfully guide diffusion with small trainable parameters and no labeled data. Finally, we show that image classifiers, depth estimators, and semantic segmentation models can guide publicly available GLIDE through our framework in a plug-and-play manner.
translated by 谷歌翻译
当前的无人机交付解决方案主要专注于使用一台无人机交付单包交付。但是,无人机技术的最新发展使无人机能够在一次旅行中提供多个包裹。我们使用最近的目的地第一策略来更快地在Skyway网络中交付包装。该演示是在Skyway网络之后在Urban空域中多包交付的概念验证原型。我们使用悉尼CBD的3D模型在室内测试台环境中部署和测试该多包无人机交付。演示:https://youtu.be/ytwsifuvwpc
translated by 谷歌翻译
长期以来,在行业中广泛使用异常定位。先前的研究集中在近似于正常特征的分布而不适应目标数据集的情况下。但是,由于异常定位应精确区分正常和异常特征,因此缺乏适应性可能会使异常特征的正态性高估。因此,我们提出了基于耦合的 - 希普尔特征适应(CFA),该功能适应(CFA)使用适合目标数据集的功能来完成复杂的异常定位。 CFA由(1)一个可学习的补丁描述符组成,该描述符可学习和嵌入面向目标的功能以及(2)可扩展的内存库,独立于目标数据集的大小。并且,CFA采用转移学习以增加正常特征密度,因此可以通过将贴片描述符和记忆库应用于预训练的CNN来清楚地区分异常特征。所提出的方法在定量和质量上优于先前的方法。例如,它提供的AUROC分数为99.5%,在MVTEC AD基准的异常定位中提供98.5%。此外,本文指出了预训练的CNN的偏置特征的负面影响,并强调适应目标数据集的重要性。该代码可在https://github.com/sungwool/cfa_for_anomaly_localization上公开获得。
translated by 谷歌翻译
常规的基于NAS的修剪算法旨在找到具有最佳验证性能的子网络。但是,验证性能并不能成功代表测试性能,即潜在性能。另外,尽管对修剪的网络进行微调以恢复性能下降是不可避免的过程,但很少有研究解决了这个问题。本文提供了一种新颖的合奏知识指导(EKG),以一次解决这两个问题。首先,我们在实验上证明损失格局的波动可以是评估潜在性能的有效指标。为了以低成本搜索具有最平稳损失景观的子网络,我们采用心电图作为搜索奖励。用于以下搜索迭代的EKG由临时子网络的集合知识,即子网络评估的副产品组成。接下来,我们重复使用心电图为修剪的网络提供温和的信息指导,同时微调修剪的网络。由于在两个阶段中都将心电图作为内存库实施,因此需要可忽略的成本。例如,当修剪和训练Resnet-50时,只需315 GPU小时即可删除约45.04%的拖鞋而没有任何性能降解,即使在低规格的工作站也可以运行。实施的代码可在https://github.com/sseung0703/ekg上找到。
translated by 谷歌翻译
最近,将变压器结构应用于图像分类任务的视觉变压器(VIV)具有优于卷积神经网络的优势。然而,使用诸如JFT-300M的大型数据集的预先训练的VIT结果的高性能和其对大型数据集的依赖性被解释为由于低地位感应偏差。本文提出了移动的贴片标记(SPT)和地区自我关注(LSA),有效解决了缺乏地区归纳偏差,使其即使在小型数据集上也能从划痕中学习。此外,SPT和LSA是通用且有效的附加模块,可轻松适用于各种VITS。实验结果表明,当SPT和LSA都应用于VITS时,性能在微小的想象中平均提高2.96%,这是一个代表性的小型数据集。特别是,由于所提出的SPT和LSA,Swin Transformer达到了4.08%的压倒性的性能提高。
translated by 谷歌翻译
命名实体识别(ner)是从文本中提取特定类型的命名实体的任务。当前的NER模型往往依赖于人类注释的数据集,要求在目标领域和实体上广泛参与专业知识。这项工作介绍了一个询问生成的方法,它通过询问反映实体类型的需求的简单自然语言问题来自动生成NER数据集(例如,哪种疾病?)到开放式域问题应答系统。不使用任何域中资源(即,培训句子,标签或域名词典),我们的模型在我们生成的数据集上仅培训了,这在很大程度上超过了四个不同域的六个基准测试的弱势监督模型。令人惊讶的是,在NCBI疾病中,我们的模型达到75.5 F1得分,甚至优于以前的最佳弱监督模型4.1 F1得分,它利用域专家提供的丰富的域名词典。制定具有自然语言的NER的需求,也允许我们为诸如奖项等细粒度实体类型构建NER模型,其中我们的模型甚至优于完全监督模型。在三个少量的NER基准测试中,我们的模型实现了新的最先进的性能。
translated by 谷歌翻译
域泛化(DG)方法旨在通过仅使用来自源域的训练数据来实现未经证明的目标域的概括性。虽然已经提出了各种DG方法,但最近的一项研究表明,在一个公平的评估方案下,称为域底,简单的经验风险最小化(ERM)方法可与以前的方法相当。不幸的是,简单地解决了ERM在复杂的非凸损函数上,可以通过寻求尖锐的最小值来容易地导致次优化的普遍性。在本文中,我们理论上表明发现扁平最小值导致较小的域泛化差距。我们还提出了一种简单而有效的方法,名为随机重量平均(纵向),找到扁平的最小值。瑞郎发现更漂亮的最小值,并且由于通过密集和过度感知的随机重量采样策略而遭受的过度装备不足。瑞士瑞士展示了五个DG基准测试,即PACS,VLC,OfficeHome,Terraincognita和Domainnet的最先进的表演,符合域名准确度的一致和大幅度+ 1.6%。我们还与常规的泛化方法(如数据增强和一致性正则化方法)进行比较,以验证显着的性能改进是通过寻求扁平的最小值,而不是更好的域概括性。最后但并非最不重要的是,瑞士剧本适应现有的DG方法而无需修改;施联和现有DG方法的组合进一步提高了DG性能。源代码可在https://github.com/khanrc/swad提供。
translated by 谷歌翻译
Understanding the informative structures of scenes is essential for low-level vision tasks. Unfortunately, it is difficult to obtain a concrete visual definition of the informative structures because influences of visual features are task-specific. In this paper, we propose a single general neural network architecture for extracting task-specific structure guidance for scenes. To do this, we first analyze traditional spectral clustering methods, which computes a set of eigenvectors to model a segmented graph forming small compact structures on image domains. We then unfold the traditional graph-partitioning problem into a learnable network, named \textit{Scene Structure Guidance Network (SSGNet)}, to represent the task-specific informative structures. The SSGNet yields a set of coefficients of eigenvectors that produces explicit feature representations of image structures. In addition, our SSGNet is light-weight ($\sim$ 55K parameters), and can be used as a plug-and-play module for off-the-shelf architectures. We optimize the SSGNet without any supervision by proposing two novel training losses that enforce task-specific scene structure generation during training. Our main contribution is to show that such a simple network can achieve state-of-the-art results for several low-level vision applications including joint upsampling and image denoising. We also demonstrate that our SSGNet generalizes well on unseen datasets, compared to existing methods which use structural embedding frameworks. Our source codes are available at https://github.com/jsshin98/SSGNet.
translated by 谷歌翻译
减少源和目标域之间的表示形式差异是最大化模型概括的关键组件。在这项工作中,我们倡导利用自然语言监督域的概括任务。我们将两个模块介绍给地面视觉表示,其中包含人类典型推理的文本:(1)视觉和文本关节嵌入器以及(2)文本解释发生器。前者学习图像文本的关节嵌入空间,我们可以将高级类别歧视性信息接地到模型中。后者利用了一个可解释的模型,并生成了解释,证明其决定背后的理由是合理的。据我们所知,这是为域泛化任务利用视觉和语言跨模式方法的第一项工作。我们使用新创建的CUB-DG基准数据集进行的实验表明,可以成功地将跨模式监督用于接地域不变的视觉表示并改善模型的概括。此外,在大规模域基准测试中,我们提出的方法可实现最先进的结果,并在五个多域数据集的平均性能中排名第一。数据集和代码可在https://github.com/mswzeus/gvrt上找到。
translated by 谷歌翻译
自Bert(Devlin等,2018)以来,学习上下文化的单词嵌入一直是NLP中的事实上的标准。然而,学习上下文化短语嵌入的进展受到缺乏人类通知的语句基准基准的阻碍。为了填补这一空白,我们提出了PIC- 〜28K名词短语的数据集伴随着它们的上下文Wikipedia页面,以及一套三个任务,这些任务增加了评估短语嵌入质量的难度。我们发现,在我们的数据集中进行的培训提高了排名模型的准确性,并明显地将问题答案(QA)模型推向了近人类的准确性,而在语义搜索上,鉴于询问短语和段落,在语义搜索上是95%的精确匹配(EM)。有趣的是,我们发现这种令人印象深刻的性能的证据是因为质量检查模型学会了更好地捕获短语的共同含义,而不管其实际背景如何。也就是说,在我们的短语中歧义歧义(PSD)任务上,SOTA模型的精度大大下降(60%EM),在两个不同情况下未能区分相同短语的两种不同感觉。在我们的3任任务基准测试中的进一步结果表明,学习上下文化的短语嵌入仍然是一个有趣的开放挑战。
translated by 谷歌翻译